В данном отчете приведена подробная информация о базе данных PISA 2018. База состоит из число наблюдений и число переменных, среди которых число 3747 юношей и 3861 девушек.
Международная программа по оценке образовательных достижений обучающихся PISA (Programme for International Student Assessment) является мониторинговым исследованием качества общего образования, которое отвечает на вопрос: «Обладают ли обучающиеся 15-летнего возраста, получающие обязательное общее образование, знаниями и умениями, необходимыми им для полноценного функционирования в современном обществе: решения широкого диапазона задач в различных сферах человеческой деятельности, общения и социальных отношений?» Исследование проводится под эгидой Организации экономического сотрудничества и развития (ОЭСР) трехлетними циклами, начиная с 2000 года.
В исследовании оцениваются компетенции обучающихся по читательской, математической, естественно-научной грамотности, а также дополнительных компетенций, более подробную информацию о которых можно посмотреть здесь.
Данные PISA 2018 изучались с помощью открытого пакета программ RStudio и пакета ggplot (https://ggplot2.tidyverse.org/).
knitr::opts_chunk$set(echo = T,
results = "markup")
pisa_data <- readRDS("Pisa_Russia.rds")
pisa_data <- pisa_data %>%
filter(!is.na(REPEAT)&!is.na(BELONG)&!is.na(MASTGOAL)&!is.na(WORKMAST)&!is.na(RESILIENCE)&!is.na(COMPETE)&!is.na(GFOFAIL)&!is.na(ATTLNACT))
sample_data <- pisa_data %>% sample_n(200)
selected_variables <- sample_data %>%
select(REPEAT, BELONG, MASTGOAL, WORKMAST, RESILIENCE, COMPETE, GFOFAIL, ATTLNACT) %>%
mutate(
Mathematics = (sample_data$PV1MATH + sample_data$PV2MATH + sample_data$PV3MATH + sample_data$PV4MATH + sample_data$PV5MATH + sample_data$PV6MATH + sample_data$PV7MATH + sample_data$PV8MATH + sample_data$PV9MATH + sample_data$PV10MATH) / 10,
Reading = (sample_data$PV1READ + sample_data$PV2READ + sample_data$PV3READ + sample_data$PV4READ + sample_data$PV5READ + sample_data$PV6READ + sample_data$PV7READ + sample_data$PV8READ + sample_data$PV9READ + sample_data$PV10READ) / 10,
Science = (sample_data$PV1SCIE + sample_data$PV2SCIE + sample_data$PV3SCIE + sample_data$PV4SCIE + sample_data$PV5SCIE + sample_data$PV6SCIE + sample_data$PV7SCIE + sample_data$PV8SCIE + sample_data$PV9SCIE + sample_data$PV10SCIE) / 10,
Gender = factor(ifelse(sample_data$ST004D01T==1,"female","male"))
)
selected_variables
df <- selected_variables %>%
select(BELONG, MASTGOAL, WORKMAST, Mathematics)
describe(df)
## vars n mean sd median trimmed mad min max range
## BELONG 1 200 -0.48 0.79 -0.57 -0.55 0.54 -3.24 2.72 5.96
## MASTGOAL 2 200 -0.22 1.06 -0.43 -0.29 1.16 -2.53 1.85 4.38
## WORKMAST 3 200 -0.32 0.82 -0.26 -0.39 0.76 -2.74 1.82 4.55
## Mathematics 4 200 498.69 72.09 501.78 499.68 74.42 321.30 683.33 362.03
## skew kurtosis se
## BELONG 1.13 4.93 0.06
## MASTGOAL 0.36 -0.45 0.08
## WORKMAST 0.77 1.04 0.06
## Mathematics -0.09 -0.42 5.10
## $BELONG
##
## Shapiro-Wilk normality test
##
## data: x
## W = 0.87777, p-value = 0.00000000001194
##
##
## $MASTGOAL
##
## Shapiro-Wilk normality test
##
## data: x
## W = 0.95301, p-value = 0.000003725
##
##
## $WORKMAST
##
## Shapiro-Wilk normality test
##
## data: x
## W = 0.91683, p-value = 0.000000003432
##
##
## $Mathematics
##
## Shapiro-Wilk normality test
##
## data: x
## W = 0.99446, p-value = 0.6689
t_test_result <- t.test(selected_variables[selected_variables$Gender=="female",]$Mathematics,selected_variables[selected_variables$Gender=="male",]$Mathematics)
t_test_result
##
## Welch Two Sample t-test
##
## data: selected_variables[selected_variables$Gender == "female", ]$Mathematics and selected_variables[selected_variables$Gender == "male", ]$Mathematics
## t = 1.2479, df = 196.76, p-value = 0.2135
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -7.379589 32.813923
## sample estimates:
## mean of x mean of y
## 504.9252 492.2080
По описательному анализу мы можем сделать вывод о том,что по критерию Шапиро-Уилка переменные BELONG, MASGOAL, WORKMAST из 200 наблюдений - не являются распределенными нормально так как их значение p-value<0.05
Mathematics может быть принята как нормально распределенная, так как уровень значимости выше 0.05
При сравнительном анализе мы видим по столбчатой диаграмме, то что выборочное среднее по математики мальчиков чуть ниже девочек, возможно, это говорит о том что девочки написали лучше тест по математике.
На основе результатов теста Стьюдента можно сделать вывод, что существует статистически значимое различие в средних значениях математики между девочками и мальчиками. Среднее значение математики у девочек выше, чем у мальчиков, и разница составляет от 1.192029 до 43.961363 в пользу девочек.
На корреляционной матрице мы видим, что более сильная линейная зависимости существует у переменных Mathematics,Reading,Science.